专家观点|汪晓梅等:支撑数据要素流通的数据交易平台的关键技术设计与实践
《新型工业化》2023年第11期刊发中国人民大学汪晓梅、黄科满,贵州数据宝网络科技有限公司邵瑞江署名文章《支撑数据要素流通的数据交易平台的关键技术设计与实践》,全文为您分享如下:
支撑数据要素流通的数据交易平台的关键技术设计与实践
汪晓梅 1,2 黄科满 1 邵瑞江 2
(1. 中国人民大学,北京 100000;
2. 贵州数据宝网络科技有限公司,上海 210000)
数据要素市场是指一个以数据资源及其生产、加工、使用和交易等为主要内容的市场。 数据要素市场是数据经济时代下的新兴市场,在数字化、网络化和智能化等技术的支撑下,涌现出了大量的数据资源应用场景。在数据要素市场中,数据被认为是重要的生产要素,与土地、资本、技术、劳动力并列为五大生产要素。
目前,我国数据要素市场处于快速发展阶段。政府高度重视数据要素市场的发展,发布了《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《数据二十条》)等相关法规,以确保数据安全合规,鼓励数据资源的共享和开放。同时,在政府层面推动大数据、人工智能等技术的应用,引导传统企业转型升级,推动数字经济迅速发展。然而,在企业实践过程中,数据要素流通还面临着权利关系不明确、流通规则不规范、价格机制不健全、技术支撑不充足等挑战。因此,本文在分析现有数据要素流通平台现状的基础上,结合某省落地建设并运营数据要素流通平台体系的实践经验,总结两级市场数据登记确权方法、数据治理标准化加工、数据两阶段定价和三阶段清算机制。在此基础上,构建基于区块链和智能合约技术的隐私保障体系,从而为打造数据要素流通交易平台提供第一手实践经验和启发。
一、数据要素流通平台现状
(一)国内外数据要素流通平台现状
发达国家的数据交易市场发展起步较早,发展至今,数据交易平台样式较多,既有综合性数据交易平台,如BDEX、Ifochimps、RapidAPI等,也有专注于细分领域的数据交易商,如Factual专注于位置领域数据,Quandl专注于经济、金融领域GE Predix专注于工业据领域,DataCoup和Personal专注个人领域。另外,很多IT行业巨头公司也在构建自己的数据交易平台,例如日本的富士通Data Plaza将脱敏后的购物记录、交通信息、社交平台信息、手机位置信息、流通业制造业信息等进行数据交易以赚取收益,还有微软Azure Marketplace在线市场,将脱敏后的上述数据用于购买和销售完成的软件,即服务(SaaS)应用程序和高级数据集。当前,国外数据交易平台收益模式主要采取数据交易赚取佣金和提供数据解决方案,数据交易产品主要集中在位置信息、金融信息、人口健康信息等方面。
国内数据交易平台虽然起步较晚,但在政策引导下,发展速度迅猛。截至2022年8月,从公开渠道可查,全国已经成立或拟成立的数据交易所(中心)共46家。其中,有综合服务平台性质的贵阳大数据交易所,以API、数据包形式对政务公开数据、企业内部数据、网页爬虫数据进行数据交易;也有第三方服务交易平台性质的北京大数据交易所、上海数据交易所、深圳数据交易所等,主要以 API、数据包、加密数据、分析报告的形式进行数据交易;还有和国外模式类似的通过头部科技公司构建的数据交易平台,例如京东万象、阿里云、天元数据等,集合“自营数据+第三方数据+政府开放数据”,以API、数据集、数据报告、数据定制等方式进行数据交易。
(二)国内数据要素流通瓶颈
虽然在政策引导下,各大数据交易平台取得了迅猛发展,但在实践中仍面临许多限制因素,所以国内数据要素平台整体还处于不温不火的状态,下面将对国内数据要素流通平台的限制因素进行详细探究和分析。
1. 数据确权问题
在数据要素流通平台上共享的数据往往具有多样性和复杂性,可能涉及多个机构或个人的所有权问题,需要建立公正、透明、高效的数据权属管理机制。这一机制需要依托于业务,进一步明确数据的产权、使用权、经营权等内容,并规定相关责任和义务,以保证数据安全、合法、合规。
2. 数据标准化问题
在数据要素化过程中,准入门槛标准不一,且大部分初始门槛要求过高,“劝退”供需双方。由于不同行业和机构之间存在数据格式、元素、质量等方面的差异,不同数据在交换和流通过程中存在较大的障碍和风险。这不仅增加了数据交易的成本, 还影响了数据产业的健康发展。
3. 定价机制不完善
在数据要素流通过程中,合理的数据定价能够推动数据交易的发展。如果因为信息差造成数据定价过高,会损害买方的利益,同时会对交易平台造成信誉危机,不利于平台的数据交易;如果数据价格过低,则会导致卖方利润达不到预期,不利于后续交易。数据交易发展至今,虽然有多种定价机制,但总体上还没有形成一套行业标准。
综上所述,国内数据要素流通平台的限制因素主要包括数据所有权问题、数据标准化、定价限制等。在建设和应用数据要素流通平台时,相关方需要打破这些限制因素,以推动我国数据要素市场的发展。
(三)数据要素流通主流技术
经过多年的发展,数据要素流通技术已经成为数字经济不可或缺的一部分。然而目前,国内对于数据要素流通技术的认识和应用仍存在较大分歧。数据要素流通过程中涉及的技术具有多样性特征,这也导致分析角度不同,得出的结论不尽相同。因此,需要对数据要素流通技术进行深入研究和分析,以更好地推动数字经济的发展。
目前,主要应用在数据要素流通平台的技术包括区块链技术、数据治理、隐私计算、数字水印等。这些技术在保障数据安全、提高数据质量、加强数据保护等方面具有独特的优势和应用价值。
1. 区块链技术
区块链技术是一种基于去中心化的分布式系统,具有分布式账本、智能合约等特点。在数据要素流通平台上,通过应用区块链技术可以实现数据的安全存储和传输,使数据具有不可篡改性和透明性,使数据的产生和流转具有可追溯性。此外,通过智能合约可以实现多方协作、数据共享、数字资产管理等应用场景。例如,数据交易平台可以应用区块链技术确保交易数据的隐私性和安全性。
2. 数据治理技术
数据治理是指在数据开发、数据维护、数据使用等方面制定规范、规则和标准,以实现数据质量的统一管理。数据治理还包括数据质量监控和数据挖掘等技术。在数据要素流通平台上,数据治理可以帮助提高数据的一致性、准确性、完整性,进而提高数据质量,促进数据的有效利用和增值。例如,在数据交易平台中,政府数据市场化应用的前置条件就是利用数据治理技术对政府原始数据进行分级分类和脱敏处理,方便后续数据市场化应用。
3. 隐私计算技术
隐私计算是指在保护数据隐私的前提下,进行数据计算和分析。利用保障数据隐私下的数据处理,能够在不暴露用户隐私的情况下对数据进行分析和应用。在数据要素流通平台上,隐私计算有助于加强数据保护和隐私保护,降低数据泄露和滥用的风险。例如,在数据交易平台中如果想实现联合建模,可以通过隐私计算技术进行数据联合建模, 从而得到融合模型。
综上所述,数据要素流通技术在数字经济中具有重要的作用和价值。区块链技术、数据治理、隐私计算、数字水印等技术的应用,有助于加强对数据的管理和保护,提高数据的质量和效率,推动数字经济的健康发展。同时,在应用这些技术的过程中,需要充分考虑到数据隐私保护、法律法规合规等方面的问题,确保数据要素流通的规范和安全。
区块链、数据治理等技术的应用,为数据流通提供了有效的保障和支持。为了在数据流通平台实现确权、加工、交易、监管全流程,需要将数据流通技术应用于数据交易平台,才能更好地促进数据要素交易。
二、支持数据要素流通交易的关键机制设计
推进数据交易服务平台建设,需要有效应对数据要素流通交易过程中面临的确权难、治理难、定价难和分配难等问题。本章结合某地建设并运营数据要素流通体系的实践经验,梳理形成两级市场确权、流通标准化、两阶段动态定价和三阶段清算机制,支撑数据要素流通 交易平台的建设和运营。
(一)两级市场数据登记确权
数据权属界定不明确是数据要素流通交易需要面对的第一个关键挑战。《数据二十条》创造性地提出“数据资源持有权、数据加工使用权、数据产品经营权”三权分置模式,形成了具有中国特色的数据权属模式。一方面,明确了数据权属是与物权、债权、知识产权并列的新型民事权利;另一方面,明确了数据权属的分类确权原则。一是数据资源持有权,其客体是数据资源,主体则是数据来源者或是数据处理者。在具体权能上,数据资源持有权至少应当包括数据加工使用权和数据流转权,即数据持有者不仅有权利进行数据加工,也可以授权给其他人。此外,数据资源持有权也存在相应的时间限制,不得超出或小于法律规定的存储期限。目前,国内数据权属体系淡化了对数据创造者所有权的概念,而将数据资源持有权作为数据要素流通中产权界定的起点。二是数据加工使用权,其客体是数据资源和数据产品,其主体应是数据处理者。在具体权能上,数据加工使用权可以对数据进行筛选、分类、排列、加密、标注等处理。在权利来源上,在满足依法持有或合法取得数据的前提下,数据处理者拥有数据加工使用权。三是数据产品经营权,其客体是数据产品,其主体应是数据持有者和数据处理者。数据产品经营权包括收益权和经营权。在权利来源上,数据产品经营权来源于数据产权人通过大量智力和体力劳动赋予了数据更高的价值。
数据要素流通的本质是数据价值的实现与数据权属的转移。基于以上定义的四方面确权需求,结合实践,并基于数据资源的客体形态,本文构造了两级市场登记确权体系,以实现数据要素流通的确权与授权机制,如图 1 所示。
在将原始数据加工处理为数据资源后,需要通过数据确权登记平台完成数据持有权的登记与确权。该平台允许各组织机构在平台上登记持有的数据资源信息,包括数据资源名称、原始数据采集方式、采集范围、分类分级、允许使用用途、允许加工方式等。随后,专责部门对确权内容、权属期限等进行审核,审核主要通过数据库表校验、API测试、实地取证、专家评审等方式进行评定。审核完成后,由政府主管单位(国家 / 地方数据局)向数据资源持有权方颁发具有唯一编码且可查询、可核验的存证证书,并向社会公示。完成确权登记的数据资源可在平台进行信息变更、权属转让、加工使用授权、产品经营授权等操作。这样的确权登记和审核机制有助于确保数据权属的合法性和公正性,能够促进数据资源的合规使用与流通。
一级市场确权链主要是指数据资源的持有方可以对已经进行过申请的机构/企业等数据开发方,进行数据加工使用权和数据产品经营权的授权。数据加工方利用数据资源开发形成数据产品后,需要在确权登记平台上登记加工完成的数据产品信息,包括产品名称、数据来源、加工方式、采用的技术架构、应用场景、产品性能等,明确数据产品和相关数据资源的血缘关系。登记信息如图2所示。专责部门审批确权内容、权属期限等内容后,为数据产品颁发具有唯一编码并可查询、可核验的存证证书。完成确权登记的数据产品可经营授权等操作,并可以在数据交易平台中上架交易。在利用数据资源开发数据产品的过程中,具有数据资源持有权的单位可以直接利用数据资源进行数据产品的开发,也可以由具有资格的开发单位通过一级市场获得加工授权并进行产品开发。
图 2 数据资源登记页面(系统截图)
数据资源确权登记时,由多个政府部门协同对数据权属相关信息进行综合评审,并根据实际 情况决定是否需要召集相关专家进行评审。确权登记审核的主要内容包括主体信息、基础信息和资源详情三个方面。主体信息主要包括申请主体的名称、统一社会信用代码、法人信息等工商注册基本信息,其中包含数据采集方式、数据体量规模、数据更新频率、数据起止时间、数据来源场景等内容;资源详情审查主要包含数据资源的字段名称、说明、长度、详情等相关参数。
二级市场主要针对数据产品,例如数据产品提供方上架相应的产品后,数据产品需求方通过交易平台获取数据产品使用权。数据产品使用权主要通过交易合同等方式进行约束与存证,对于数据API类的产品,可以通过接口封装和接口路由对产品使用进行监控与管理。
数据产品确权登记时主要对产品基础信息、产品数据信息和产品数据字段详情进行审查。基础信息主要包括产品的名称、介绍、产品形态、更新频率等;产品数据信息主要包含该产品的请求方式、服务地址、QPS、出入参等;产品数据字段详情主要针对该产品的具体字段、描述以及其他说明内容,由政府主管部门进行综合评审后予以确权审批,产品登记信息见表 1。
表 1 数据产品确权登记表(部分)
(二)数据流通标准化
1. 业务流程标准化
流通业务的标准化是保障数据要素流通交易平台有效运营的关键,即需要围绕数据要素流通,建立一整套相对完善的机制与流程,包括市场身份准入机制、交易平台使用机制、数据供需撮合匹配机制、数据流通监管机制、数据产品准入机制、数据交易流程、交易契约存证机制等,并将其固化到交易平台中。例如,围绕数据供需撮合匹配机制,在交易平台中加入需求大厅与需求收集模块,用户可以在需求大厅或者需求方的工作空间中,按照结构化的数据需求收集表进行需求发布。平台运营方会匹配专业的数据经纪人或供方对需求进行认领,组织相关对接会议,并以工单化的方式将需求撮合的记录与相关成果进行留存。又如,市场身份准入机制采用市场化的思路设计用户体系,力求在政策内降低用户准入门槛。当用户需要履行相关数据流通交易业务时,再要求用户提供相应的证明材料,避免出现因法人身份认证等较高初始门槛而劝退用户的情况。
为此,平台需设计提供不同流程的标准样例模板,以供不同用户参考使用,作为支撑数据要素交易流通业务的重要手段。
2. 数据治理能力标准化
为了促进数据共享融合、保障数据要素价值释放,需要建立数据治理加工平台 。数据治理平台需要支撑三方面的标准化数据治理能力。
一是数据分级分类管理标准化。数据分级分类基础性工作对于推进数据按级别开放、数据确权授权、交易流通等可起到夯实工作基础的作用。
二是数据全生命周期流程标准化。在平台上除了能完成数据采集、加工、分析、服务、流通等基础标准外,还能够落实数据质量监控、数据脱敏、元数据管理等其他标准。
三是数据安全技术体系标准化。以“区块链+可信空间”为技术支撑,通过可追溯的分布式数据系统技术,运用非对称加密技术和算 法提升安全管控,运用点对点技术和智能合约 技术促进开放共享。
将原始数据加工成可流通的数据资源或者数据产品需要通过以上三方面的标准化,从而使每次加工处理后的产出结果均能够实现标准化。而且这些标准需求是从定制开始,在数据要素的流通交易实践过程中打磨最终形成的。因此,需要从场景出发,找到相应的买家,根据买家实际场景需求来反推数据治理任务。在这个过程中,通过弹性适配,最终可以找到可配置的方式来满足客户需求。
(三)数据定价与收益分配
1. 两阶段数据产品动态定价法
由于数据商品本身属性的特殊性,数据的定价一直难于其他产品。目前市面上的数据定价方法主要有三种,即成本法、收益法和市场法。其中,成本法以生产费用价值论为理论基础,考虑单位产品的可变与固定成本,加上单位商品的交易利润以确定产品价格,适用于市场不活跃的场景;收益法依据效用价值论将数据的预期收益值作为数据估值,适用于预期收益确定且可量化的场景;市场法依据均衡价值论,以市场中参照物的市场价格为基础进行调整,适用于市场较为成熟的场景。总体来看,数据要素市场还未形成统一的定价体系,大部分依据数据质量和数据评价,通过综合成本法、收益法和市场法进行定价。更重要的是,这些定价方式均未考虑数据资源价格动态变化的特性,即数据资源在流通交易的过程中,会随着需求变化和数据资源成熟度体现出动态价值。
因此,在实践中需要考虑数据资源流通交易过程的不同阶段。对此,本文提出基于评价的产品两阶段定价法,即新品上架阶段的产品初始定价,产品成长阶段的价格在给定的预期上下限内基于用户评价和用户价格敏感度上下波动。第一阶段为新品上架阶段,数据交易少,数据产品的应用价值和品牌价值难以评估,定价合理性不好评估,所以需要综合考虑数据质量、数据性能、数据应用范围等因素,并考虑数据产品的市场情况、数据开发治理成本,以及期望获得的利润,以此设定初始定价。第二阶段为产品成长阶段,此时已经积累了交易数据,同时数据应用价值和品牌价值已经得到了验证。该阶段主要基于客户评价和客户属性进行动态调整,在有限定范围,快速定位到合适的价格,实现优品优价,维护市场良好生态。
2. 三阶段收益清算分配
在该数据定价体系中,数据定价还需要考虑收益分配,按照《数据二十条》提出的进行,即推进非公共数据按市场化方式“共同使用、共享收益”的新模式。本次实践设计了基于数据确权的数据要素流通的三级结算机制,如图 3 所示。结算第一阶段:需求方与运营方结算。数据运营方将数据加工后进行市场推广和销售,按照定价策略由买家支付获得收益。结算第二阶段:运营方与加工方结算。数据加工方通常会将多个数据源结合在一起,进行清洗、整合、分析等处理,以生成更有价值的信息。在此过程中,数据加工方将加工好的数据产品提供给数据运营方,按照不同的结算方式获取收益,例如一定比例的分润或者按照实际使用进行结算。结算第三阶段:加工方与资源方结算。数据资源方通常通过授权链将其数据授权给数据加工方或数据经营方。在此过程中,数据资源方可以与数据加工方或数据经营方协商,达成一个共同认可的收益分配方案。例如,数据持有者可以要求收取一定的独家授权运营费用或根据数据使用量收取一定费用。
图 3 数据要素流通三级结算机制流程
在数据要素市场中,数据资源方、数据加工方和数据经营方之间的收益分配需要各方面的协商和谈判,以实现共同利益和长期合作。同时,在制定任何收益分配方案时,也需要考虑法律合规、数据安全、知识产权保护等多个方面的因素,以确保数据要素市场的可持续发展和稳定性。
(四)基于区块链和智能合约的数据流通交易平台建设
1. 平台业务架构
数据要素流通平台将《数据二十条》相关要求和规划作为整体设计参考,包含“数据确权-授权-加工-交易-监管”全流程的相关业务,主要有技术支撑底座、业务中台、数据确权登记、可信加工空间、数据交易平台等子模块。
数据要素流通平台的核心流程为数据确权登记流程、数据授权流程、市场主体准入流程、数据产品上架流程、数据产品交易流程、供需撮合交易流程等。为保证数据流通交易参与各方在数据交易平台上可以顺利完成自身相关的业务,并保证良好的独立性与延展性,本文采用分层解耦、流程化、工单化的理念设计并搭建数据流通交易平台,平台架构如图 4 所示。
图 4 数据流通交易平台架构
技术支撑底座主要以区块链、数据库水印、隐私计算等为支撑。区块链技术主要用于流通交易业务的全程存证;数据库水印技术用来追踪数据的创建、传输和共享过程中的数据盗用、非法复制和侵犯版权等问题;隐私计算主要支撑隐私敏感数据的加工与应用,实现数据不出域,可用不可见。
业务中台主要针对平台用户、身份、权限、消息等进行统一管理,并将产品服务、权属转移等进行订单化、流程化的管理与配置。另外,将合同、支付等服务模块进行整合打通,用于支持流通交易各环节所需。
数据确权登记平台主要支持用户进行确权登记、授权应用、权属转让等业务。确权登记包含数据资源的确权与数据产品的确权,同时支持相关证书的管理发放、公示存证、信息变更等。授权应用模块主要用于相关机构申请已确权数据的加工使用权与经营权,支持主管单位对数据使用场景进行审查,对授权申请进行审批。权属转移模块主要支持数据权属转移与接收,并对权属转让关联的数据产品进行权 源核验。
可信加工空间以政府信用为背书,提供多元数据所有者进行融合加工的可信基础设施,为生态行业提供安全可信的产品加工平台,融合算力管理、隐私计算、区块链等技术,解决多主体数据融合开发产品的互信问题。同时,为数据拥有者提供数据使用对象、范围、方式等方面的控制能力,消除流通顾虑,释放数据供给;为数据处理者提供数据加工的可信环境与相关工具,提供内外部合规记录,实现数据资源的有效管理;为数据供需双方提供数据要素流通中间服务,便利供需对接,促进应用场景创新和数据价值化配置。
数据交易平台针对参与数据交易的市场主体采用工作空间的独立设计,用户通过了供方、需方、第三方不同市场身份的准入审核后,即可获取相应工作界面的权限,在工作空间完成相关的业务。同时,针对运营管理用户的运营管理需求,设计开发了运营管理平台,一方面便于交易所等运营机构全面掌握用户、产品的流通交易业务情况;另一方面为数据产品及服务供需的高效匹配与数据交易生态的建立,提供了有力的平台支持。另外,建立数据交易相 关的监管要素与监管指标,并通过平台业务数据,针对行业、场景、产品、订单等维度,建立包括智能发现、实时预警、科学决策、高效 处置的监管机制,并实现监管到处置的全程留痕、安全可信。
2. 区块链和智能合约应用
数据流通交易平台主要采用联盟链机制,在相应的节点准入机制下,能够将相关用户、机构、交易所等单位纳入联盟。各个部委、委办局、企事业单位等组建统一的联盟链,可以根据业务诉求组建不同的通道,每一个通道有不同的业务范围,以实现共享范围权限的安全可控。在区块链框架下,不同的业务通道之间账本是相互隔离的,根据业务的需求可以选择将不同的业务划分在不同的通道进行管理。例如,可以将数据资源确权、数据产品加工、数据流通交易等应用场景划分成不同的通道,保证相关的业务隔离。同一个机构可以接入多个通道,维系多个账本,且各账本相互独立。
3. 平台实践效果
该数据流通交易平台联合某区域已落地成功,在数据登记确权、数据流通标准化、数据定价和收益分配等方面,由区块链和智能合约提供全流通数据流通血缘,为数据要素可信流 通提供安全保障。同时,在初期运营过程中,上架了200多个数据产品,涵盖运营商、金融、出行、气象、电力、住建等多个领域,为该区域带来显著数据收益。
三、总结与展望
随着数字经济的快速发展,数据要素市场的重要性越来越受到政府和社会的关注。本文结合实际数据要素资源流通交易平台的建设经验,围绕数据要素资源流通交易过程中数据确权、数据治理、数据定价以及收益分配等关键挑战,形成两级市场数据确权、标准化数据治理体系、两阶段数据产品定价以及三阶段清算机制的关键技术体系,进而基于区块链和智能合约技术实现关键技术的落地和实践,取得了显著的成果,有效支撑了区域数据要素资源的流通交易。
作者简介
汪晓梅,中国人民大学计算机应用技术专业硕士,贵州数据宝网络科技有限公司数据产品经理,研究方向:数据要素市场,数据要素流通标准化和数据要素变现;
黄科满(通信作者),中国人民大学杰出学者,人民大学智慧养老研究所副所长,中国人民大学区块链研究院研究员,中国人民大学网络空间发展与战略研究院研究员,副教授,硕士生导师,博士,麻省理工斯隆商学院网络安全研究中心(Cybersecurity at MIT Sloan,MIT CAMS)兼职研究员,国际网络安全专家(CISSP)认证,研究方向:网络安全行为、政策和策略,网络攻击服务化创新系统,AI和区块链技术在数字化转型和网络安全领域的应用,数字经济生态系统的动态建模与优化治理;
邵瑞江,贵州数据宝网络科技有限公司产品专家,研究方向:公共数据运营、大数据、政务区块链应用。
《新型工业化》编辑部
联系人:侯亚妮 袁兵
电 话:13810075466 13146055677
地 址:北京市石景山区鲁谷路35号
邮 编:100040